高等数学

Wang Haihua

🍈 🍉🍊 🍋 🍌


中心极限定理

通俗的来讲中心极限定理(CLT,The Central Limit Theorem)指的是:

如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关

我们来通过几个例子来直观感受中心极限定理的含义:

均匀分布

给定一个均匀分布U(2,5),其概率密度表达式为: $$f(x)= \begin{cases} \frac{1}{5-2}=\frac{1}{3},& x \in(2,5) \\ 0, & 其他 \end{cases} $$ 从该概率分布中随机抽取100000个数,由该数据绘制的频率分布直方图(histogram),如下图所示(左图为理论分布,右图为从该理论分布中随机抽取): unif

接下来我们尝试从理论分布中随机抽取k个数(k分别等于1,3,5,10),然后对这k个数取平均值,构建由10000个这样平均值所组成的数组,然后绘制其频率分布直方图 unif 我们会发现随着每次抽取的样本数量k增加,数据的形态有原始的均匀分布形态转换为了正态分布形态,而且这个正态分布形态越来越“瘦长”,也就是说意味着正态分布的标准差越来越小;与此同时,整个分布的平均值相对不变,在3.5左右。 unif

这是否是个偶然呢?我们再尝试画另一个分布的样本均值分布直方图

Beta分布

Beta分布是定义在[0,1]区间内的连续概率分布族,它由两个参数a,b所指定。这两个参数作为随机变量的指数出现,并且控制分布的形状。 其概率密度函数为 $$f(x,a,b)= \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1}$$ 其中$B(x,y)=\int_0^1 t^{x-1}(1-t)^{y-1}dt$
这里不讨论Beta函数的具体性质,只取它的一个特殊情况Beta(30,2),我们来看一下从这个分布每次随机取1个数,组成100000个元素组成的数组,它的频率分布图 beta 与对待均匀分布一样,我们从理论分布中随机抽取k个数(k分别等于1,3,5,10),然后对这k个数取平均值,构建由10000个这样平均值所组成的数组,然后绘制其频率分布直方图 beta 同样可以看到数据的形态有原始的分布形态转换为了正态分布形态,而且这个正态分布形态越来越“瘦长”,标准差越来越小,均值维持在0.94左右.

中心极限定理的专业描述

中心极限定理:设从均值为$\mu$,方差为$\sigma^2$的任意总体中抽取样本量为$n$的样本,当样本量充分大时,样本均值$\bar{X}$的抽样分布近似服从均值为$\mu$,方差为$\frac{\sigma^2}{n}$的正态分布。

这正简洁地概括了为什么随着抽样个数地增加,曲线形态越来越近似于正态分布,且标准差逐渐减小而均值不发生变化了。

当采样的数量接近无穷大时,我们的抽样分布就会近似于正态分布。这个统计学基础理论意味着我们能根据个体样本推断所有样本。结合正态分布的其他知识,我们可以轻松计算出给定平均值的值的概率。同样的,我们也可以根据观察到的样本均值估计总体均值的概率。

小结

本文借助图像和案例直观地展示了中心极限定理的含义,最后给出了其准确的定义并指出了其重要性。

参考资料


1.1

1.2